Análisis RNA-seq en cáncer de pulmón (TCGA-LUAD)
Este ejercicio integra análisis bioinformático real con interpretación biológica, usando datos públicos de adenocarcinoma pulmonar (LUAD) del proyecto TCGA.
Objetivo del ejercicio
Identificar biomarcadores transcriptómicos Tumor vs Normal
Aplicar un pipeline estándar de control de calidad + DESeq2
Visualizar resultados mediante PCA, Volcano y Heatmap
Interpretar los genes en el contexto de oncogénesis pulmonar
Conectar biomarcadores con KEGG y Hallmarks of Cancer
Datos
Fuente: TCGA (The Cancer Genome Atlas)
Proyecto: TCGA-LUAD
Tipo de datos: RNA-seq (STAR – Counts)
Muestras:
Primary Tumor
Solid Tissue Normal
Control de calidad (conceptual)
Filtrado de genes con baja expresión (ruido técnico)
Normalización por tamaño de biblioteca
Transformación de varianza (VST)
Evitar mezclar identificadores (ENSG vs SYMBOL)
En TCGA, los objetos pueden traer símbolos génicos automáticamente. Siempre verificar rownames()
Preparando datos
## $title
## [1] "PCA RNA-seq – TCGA LUAD"
##
## attr(,"class")
## [1] "labels"
## [1] "ENSG00000168484.12" "ENSG00000129824.16" "ENSG00000096088.16"
## [4] "ENSG00000171564.12" "ENSG00000198183.12" "ENSG00000215182.8"
## [1] "ENSG00000000003.15" "ENSG00000000005.6" "ENSG00000000419.13"
## [4] "ENSG00000000457.14" "ENSG00000000460.17" "ENSG00000000938.13"
## [1] TRUE
## [1] NA NA NA NA NA NA NA NA NA NA
## DataFrame with 6 rows and 10 columns
## source type score phase gene_id
## <factor> <factor> <numeric> <integer> <character>
## ENSG00000000003.15 HAVANA gene NA NA ENSG00000000003.15
## ENSG00000000005.6 HAVANA gene NA NA ENSG00000000005.6
## ENSG00000000419.13 HAVANA gene NA NA ENSG00000000419.13
## ENSG00000000457.14 HAVANA gene NA NA ENSG00000000457.14
## ENSG00000000460.17 HAVANA gene NA NA ENSG00000000460.17
## ENSG00000000938.13 HAVANA gene NA NA ENSG00000000938.13
## gene_type gene_name level hgnc_id
## <character> <character> <character> <character>
## ENSG00000000003.15 protein_coding TSPAN6 2 HGNC:11858
## ENSG00000000005.6 protein_coding TNMD 2 HGNC:17757
## ENSG00000000419.13 protein_coding DPM1 2 HGNC:3005
## ENSG00000000457.14 protein_coding SCYL3 2 HGNC:19285
## ENSG00000000460.17 protein_coding C1orf112 2 HGNC:25565
## ENSG00000000938.13 protein_coding FGR 2 HGNC:3697
## havana_gene
## <character>
## ENSG00000000003.15 OTTHUMG00000022002.2
## ENSG00000000005.6 OTTHUMG00000022001.2
## ENSG00000000419.13 OTTHUMG00000032742.2
## ENSG00000000457.14 OTTHUMG00000035941.6
## ENSG00000000460.17 OTTHUMG00000035821.9
## ENSG00000000938.13 OTTHUMG00000003516.3
## [1] "SFTPC" "RPS4Y1" "PGC" "FGB" "BPIFA1" "MUC5AC" "XIST"
## [8] "SFTPA1" "FGG" "MUC5B" "SFTPA2" "FGA" "AKR1C2" "CLDN18"
## [15] "DDX3Y" "SPINK1" "CPS1" "CALCA" "SCGB1A1" "GPX2"
## [1] 20
## [1] 20 599
KEGG
## [1] 11801
## [1] 3077
## ENSEMBL ENTREZID
## 1 ENSG00000000003 7105
## 2 ENSG00000000005 64102
## 3 ENSG00000000460 55732
## 4 ENSG00000000938 2268
## 5 ENSG00000001084 2729
## 6 ENSG00000001626 1080
## [1] "ENSG00000000003.15" "ENSG00000000005.6" "ENSG00000000460.17"
## [4] "ENSG00000001084.13" "ENSG00000002079.14" "ENSG00000002587.10"
## [1] 6779
## [1] 11801
## category n
## 1 Metabolism 15
## 2 Organismal Systems 14
## 3 Human Diseases 11
## 4 Environmental Information Processing 9
## 5 <NA> 7
## 6 Cellular Processes 2
El análisis de enriquecimiento KEGG reveló una sobrerrepresentación significativa de rutas asociadas a señalización celular, interacción ligando-receptor, metabolismo y procesos inmunes. Destacan particularmente rutas relacionadas con señalización PI3K-Akt, interacción citoquina-receptor y metabolismo de lípidos, procesos ampliamente implicados en la progresión tumoral del adenocarcinoma pulmonar.